Đánh giá kết quả 59

Có một số phương pháp đánh giá chất lượng của mô hình nén tiếng nói.

Đó là phương pháp khách quan với sự tham gia của con người (như phương pháp chấm điểm trung bình MOS), hoặc là phương pháp khách quan không có sự tham gia của con người (ví dụ như phương pháp đánh giá cảm quan về chất lượng thoại PESQ). Một trong những phương pháp đo chủ quan được sử dụng phổ biến nhất là Chấm điểm trung bình MOS, ở đó có những người nghe (thính giả) đã được huấn luyện và có kinh nghiệm sẽđánh giá tín hiệu thoại theo thang

điểm từ 1 tới 5 như trong bảng 4-2. Điểm cuối cùng của tín hiệu sẽ được tính bằng giá trị trung bình của tất cả các thính giả.

Bảng 4-2: Bảng cho điểm MOS

Điểm Chất lượng thoại Mức độ biến dạng

5 Xuất sắc Không nhận thấy

4 Tốt Cảm nhận được, nhưng không gây phiền

3 Khá Cảm nhận được và hơi khó chịu

2 Trung bình Khó chịu nhưng không phản đối

1 Kém Rất khó chịu và phản đối

Mặc dù phương pháp đo chủ quan có thể là rất đáng tin cậy nhưng chúng tốt nhiều thời gian và cần các thính giả phải được huấn luyện. Vì thế, người ta thường dùng phương pháp khách quan. Một điểm hạn chế của các phép đo khách quan là cần phải có tiếng nói rõ ban đầu để làm tham chiếu so sánh, do những hạn chế trong việc hiểu biết về cảm nhận âm thanh của con người, đặc biệt trong điều kiện có nhiễu. Tuy thế, phương pháp khách quan vẫn có nhiều hữu ích và có tương quan tốt so với phương pháp chủ quan như MOS.

Trong chương 4 này, phương pháp khách quan đánh giá cảm nhận chất lượng thoại PESQ đã được lựa chọn để đánh giá hiệu năng của mô hình nén thoại MELP. PESQ được thiết kế trực tiếp để truy cập vào chất lượng tiếng nói nhận được trên đường truyền. Phép đo này chấm điểm tương tự như MOS, cho kết quả từ 1 tới 4.5, điểm càng cao thì chất lượng càng tốt.

Hình 4-3: Mô hình tổng quát của một phương pháp đo phổ biến

Hình 4-3 cho thấy mô hình tổng quát của phương pháp đo phổ biến; tuy nhiên, các thí nghiệm được tiến hành mà không có nhiễu (và sau đó là SNR) và các kênh được giả thiết là lý tưởng (khối trong đường nét đứt trong hình 4-3 đã không xem xét).

Do các vectơ thử nghiệm để đánh giá cài đặt MELP rất khó để có được công khai, và thời gian hạn chế, nên chỉ có một số mẫu tiếng Anh hoặc tiếng

Mô phỏng kênh Mã hóa Giải mã Đo đạc chất lượng MOS, PESQ Nhiễu SNR Tín hiệu thoại rõ Tham khảo

Việt đã được sử dụng đểđánh giá cài đặt MELP trên C55x. Hơn nữa, cũng chưa có bất kỳ cơ sở dữ liệu âm thanh tiếng Việt nào đểđánh giá các thuật toán xử lý tiếng nói chung và mã hóa nói riêng, trong khi đó đã có cơ sở dữ liệu tiếng Anh khác nhau được tiêu chuẩn hóa, đủ lớn và sử dụng rộng rãi như AURORA, TIMIT, ITU P50. Do đó, ở đây tác giả cùng các cộng sự đã phải tự ghi lại một số câu tiếng Việt tại chỗ dùng làm dữ liệu kiểm tra. Tuy nhiên, để có thể so sánh hiệu suất của C55x MELP với một số sản phẩm MELP khác trên thị trường (MELP của Sinalogic [5] hoặc của Vocal [6]), một số mẫu tiếng Anh được lấy trực tiếp từ các trang web của họ; bao gồm cả tệp âm thanh gốc và tệp âm thanh

đã xử lý. Cụ thể, 6 câu ở tỷ lệ lấy mẫu 8000 mẫu/giây và được lượng tử hóa 16bit được đưa vào đánh giá (xem bảng 4-3), trong đó ngoại trừ Vn_M.wav và

Vn_F.wav là ngắn, các tập tin còn lại là đủ dài để bao gồm các âm thanh khác nhau.

Bảng 4-3: Mẫu âm thanh dùng đểđánh giá

Thứ tự Tên tệp Ngôn ngữ Nam/nữ

1 Eng_M.wav [5] Tiếng Anh Nam

2 Eng_F.wav [5] Tiếng Anh Nữ

3 Vn_M.wav Tiếng Việt Nam

4 Vn_F.wav Tiếng Việt Female

5 Vov1.wav Tiếng Việt Female

6 reference_64p0k.wav [6] Tiếng Anh Cả hai Bảng 4-4 cho thấy so sánh điểm của PESQ đối với cài đặt C55x MELP và các sản phẩm thương mại khác.

Bảng 4-4: Đánh giá PESQ của cài đặt C55x MELP

Thứ tự Tên tệp C55x MELP thSảươn phng mẩm ại

1 Eng_M.wav 2.641 2.666 [13] 2 Eng_F.wav 2.384 2.445 [13] 3 Vn_M.wav 2.631 - 4 Vn_F.wav 2.267 - 5 Vov1.wav 2.713 - 6 reference_64p0k.wav 3.106 2.970 (*) (*): Tính điểm bằng công cụ ITU P.862.

Hình 4-4 và 4-5 cho thấy hình phổ của tệp Vn_M.wav (câu nam giới nói “nào sẵn sàng chưa các thanh niên”) và Vn_F.wav (câu nữ giới nói “vậy sự giải thích của họ là có lý”), tệp gốc và đã qua xử lý bởi C55x MELP tương ứng.

Hình 4-4: Tệp Vn_M gốc và qua xử lý của C55x MELP

Hình 4-5: Tệp Vn_F gốc (và qua xử lý của C55x MELP

Thông qua thực nghiệm, ta thấy rằngC55x MELP thực hiện ít nhiều cho kết quả gần giống với các sản phẩm MELP trên thị trường với tệp âm thanh đầu vào cho trước. Cụ thể, C55x MELP đã làm việc tốt hơn so với Vocal nhưng tồi hơn Signalogic, nhưng sự khác biệt là không đáng kể, chỉ khoảng 0.1 điểm PESQ. Thực hiện thêm các thí nghiệm chuyên sâu với tập hợp tiếng nói khác có thể khẳng định chất lượng của cài đặt C55x MELP dựa trên điểm số PESQ và

đánh giá nghe trực tiếp. Với cấu hình thời gian thực trực tuyến như minh họa trong hình 4-2, hệ thống hoạt động ổn định, cho kết quả âm thanh có chất lượng như mong đợi. Tức là, hệ thống có khả năng làm việc ở chế độ song công đầy

đủ: mã hóa và giải mã phải thực hiện đồng thời. 0 5000 10000 15000 -0.4 -0.2 0 0.2 0.4 Vn_M original speechVn_M gốc 0 5000 10000 15000 -0.4 -0.2 0 0.2 0.4

MELP processed Vn_M speech Vn_M đã qua C55x MELP 0 0.5 1 1.5 2 -0.4 -0.2 0 0.2 0.4 Vn_F original speech Vn_F gốc Vn_F xử lý qua C55x MELP

KẾT LUẬN

Kết quảđạt được của luận văn

Luận văn này đã thực hiện nghiên cứu lý thuyết về mô hình nén thoại trong xử lý tiếng nói, đặc biệt đi sâu vào mô hình MELP, từđó triển khai cài đặt thời gian thực mô hình MELP trên chip TMS320C55X DSP.

Chương 4 của luận văn mô tả triển khai cài đặt thời gian thực MELP trên mạch xử lý tín hiệu số TMS320C5509A DSK với chương trình được viết trên Code composer studio 3.3.

Các kết quả thử nghiệm cho thấy triển khai thời gian thực này đã hoạt

động hiệu quả và cho kết quả có thể so sánh được với một số sản phẩm MELP thương mại: C55x MELP có khả năng tạo ra tiếng nói có chất lượng tốt, song- công trong thời gian thực với hiệu năng cao ở tốc độ 2400bps.

Kết quả của nghiên cứu triển khai thời gian thực MELP trên TMS320VC55x cũng đã được tổng hợp thành bài báo khoa học đăng trên Tạp chí Nghiên cứu KH &CN quân sự, số 02-2014 [1].

Định hướng nghiên cứu tiếp theo

Bên cạnh kết quảđạt được, vẫn còn một số vấn đề cần giải quyết sâu hơn. Thứ nhất, ta cần có cơ sở dữ liệu tiếng nói lớn hơn để thử nghiệm, đặc biệt là cơ

sở dữ liệu tiếng Việt, để có thể chứng minh rõ ràng hiệu năng của cài đặt này. Thứ hai, trong luận văn này chỉ đánh giá kết quả so sánh C55x MELP với các sản phẩm thương mại khác dựa trên chất lượng tiếng nói, còn những vấn đề

khác nhưđộ phức tạp (trên cùng một nền tảng phần cứng) và tiêu hao tài nguyên thì cần những nghiên cứu sâu hơn.

Thứ ba, việc tinh chỉnh và tối ưu cài đặt là cần thiết để chứng minh chất lượng tiếng nói, tăng cường hiệu năng và giảm thiểu tiêu hao tài nguyên có thể

dẫn tới cài đặt nhiều MELP trên cùng một chip DSP.

Một hướng nghiên cứu khác là khai thác thuật toán MELP nâng cao (MELPe, NATO STANAG-4591) cho tốc độ dữ liệu thấp hơn (không chỉ

TÀI LIỆU THAM KHẢO

Bài báo liên quan

1. Phạm Văn Hậu, Đinh Văn Ngọc, Nguyễn Anh Đức, Thái Trung Kiên (2014), Real-time Implemetation of MELP vocoder on TI fixed-point TMS320C55X DSP, Tạp chí Nghiên cứu KH&CN Quân sự, 02-2014, p7- 15.

Tài liệu tham khảo

2. Sen M Kou, Bob H Lee (2001), Real-Time Digital Signal Processing – Implementations, Aplications and Experiments with the TMS320C55X, A JOHN WILEY & SONS, INC., PUBLICATION, p35-75.

3. USDoD,MIL-STD-3005,Department of Defense Telecommunications Systems Standard, 1999.

4. Wai C. Chu (2003), Speech coding algorithms – Foundation and evolution of standardized coders, A JOHN WILEY & SONS, INC., PUBLICATION, chapter 1,9,17, pp 1-32, 264-268, 454-485.

5. MELP product provided by Signalogic

http://www.signalogic.com/index.pl?page=codec_samples

6. MELP product provided by Vocal http://www.vocal.com/audio-examples/

PHỤ LỤC

Đỉnh của chuỗi xung không gian đồng nhất

Mô hình giải mã MELP